现有的图像到图像翻译技术通常遭受了两个关键问题:严重依赖按样本域注释和/或无法处理每个图像的多个属性。最近的方法采用聚类方法来轻松以无监督的方式提供样本注释。但是,他们无法解释现实环境。一个样本可能具有多个属性。此外,集群的语义不容易与人类的理解相结合。为了克服这些,我们提出了一种语言驱动的图像到图像翻译模型,称为LANIT。我们利用文本中给出的易于访问的候选域注释,并在培训期间共同优化它们。目标样式是通过根据多热域分配汇总多域样式向量来指定的。由于最初的候选域文本可能不准确,因此我们将候选域文本设置为可学习的,并在培训期间共同对其进行微调。此外,我们引入了一个松弛域,以涵盖候选域未覆盖的样品。对几个标准基准测试的实验表明,LANIT与现有模型具有可比性或优越的性能。
translated by 谷歌翻译
我们描述了在CVPR 2022举行的长期视频理解研讨会上使用的通用边界事件字幕挑战中使用的方法生成对相应事件边界的标题。 Reveca使用框架位置嵌入在事件边界之前和之后合并信息。此外,它采用了使用时间段网络和基于时间的成对差异方法提取的功能来学习时间信息。采用了注意集合过程的语义分割掩模来学习事件的主题。最后,洛拉(Lora)用于微调图像编码器以提高学习效率。 Reveca在动力学-GEBC测试数据上的平均得分为50.97,比基线方法提高了10.17。我们的代码可在https://github.com/tootouch/reveca中找到。
translated by 谷歌翻译
最近求解深卷积神经网络(CNNS)内的光致风格转移的技术通常需要大规模数据集的密集训练,从而具有有限的适用性和揭示图像或风格的普遍性能力差。为了克服这一点,我们提出了一种新颖的框架,称为深度翻译(DTP),通过对给定输入图像对的测试时间训练来实现光致风格转移,与未经培训的网络一起学习特定于图像对的翻译,从而更好地产生性能和泛化。为风格转移进行此类测试时间培训量身定制,我们提出了新颖的网络架构,具有两个对应和生成模块的子模块,以及由对比含量,样式和循环一致性损耗组成的损耗功能。我们的框架不需要离线培训阶段进行风格转移,这是现有方法中的主要挑战之一,但网络将在测试期间仅了解。实验结果证明我们的框架具有更好的概念图像对的概括能力,甚至优于最先进的方法。
translated by 谷歌翻译
在本文中,我们介绍了一种用于屏蔽的网络(Bloom-Net)的块优化方法,用于训练可扩展语音增强网络。这里,我们用残差学习方案设计我们的网络,并顺序地训练内部分离器块,以获得用于语音增强的可伸缩掩蔽基础神经网络。其可伸缩性允许它根据测试时间资源约束来调整运行时复杂度:部署一旦部署,该模型可以根据测试时间环境动态改变其复杂性。为此,我们模块化了我们的模型,因为它们可以灵活地适应增强性能和资源限制的不同需求,导致最小的内存或由于增加的可扩展性而训练开销。我们对语音增强的实验表明,所提出的块状优化方法与相应的模型相比,仅具有轻微的性能下降,与端到端的相应模型相比,实现了所需的可扩展性。
translated by 谷歌翻译
In this paper, we propose a deep learning-based beam tracking method for millimeter-wave (mmWave)communications. Beam tracking is employed for transmitting the known symbols using the sounding beams and tracking time-varying channels to maintain a reliable communication link. When the pose of a user equipment (UE) device varies rapidly, the mmWave channels also tend to vary fast, which hinders seamless communication. Thus, models that can capture temporal behavior of mmWave channels caused by the motion of the device are required, to cope with this problem. Accordingly, we employa deep neural network to analyze the temporal structure and patterns underlying in the time-varying channels and the signals acquired by inertial sensors. We propose a model based on long short termmemory (LSTM) that predicts the distribution of the future channel behavior based on a sequence of input signals available at the UE. This channel distribution is used to 1) control the sounding beams adaptively for the future channel state and 2) update the channel estimate through the measurement update step under a sequential Bayesian estimation framework. Our experimental results demonstrate that the proposed method achieves a significant performance gain over the conventional beam tracking methods under various mobility scenarios.
translated by 谷歌翻译
边缘用户的计算和通信功能有限,为大型模型的联合学习(FL)创造了重要的瓶颈。我们考虑了一个现实但较少的跨设备FL设置,在该设置中,没有客户能够培训完整的大型模型,也不愿意与服务器共享任何中间激活。为此,我们提出了主要子模型(PRISM)训练方法,该方法利用模拟低级结构和内核正交性来训练在正交内核空间中的子模型。更具体地说,通过将单数值分解(SVD)应用于服务器模型中的原始内核,Prism首先获得了一组主要的正交核,其中每个内核都通过其单数值权衡。此后,Prism利用我们的新型抽样策略,该策略独立选择主要核的不同子集以为客户创建子模型。重要的是,具有较高的采样概率分配具有较大奇异值的内核。因此,每个子模型都是整个大型模型的低级别近似值,所有客户共同实现了接近全模型的训练。我们在各种资源受限设置中对多个数据集进行的广泛评估表明,与现有替代方案相比,PRISM的性能最高可提高10%,只有20%的子模型培训。
translated by 谷歌翻译
Visual Analytics社区已提出了几种用户建模算法,以捕获和分析用户的交互行为,以帮助用户进行数据探索和洞察力生成。例如,有些人可以检测勘探偏见,而另一些人可以预测用户在进行交互之前将与用户进行交互的数据点。研究人员认为,这种算法收集可以帮助创建更智能的视觉分析工具。但是,社区缺乏对这些现有技术的严格评估和比较。结果,关于使用哪种方法以及何时使用的指导有限。我们的论文旨在通过比较和对八种用户建模算法进行比较并根据其在四个用户研究数据集的多样化的性能进行比较和排名的差距来填补这一缺失的空白。我们分析了探索偏差检测,数据相互作用预测和算法复杂性等措施。根据我们的发现,我们重点介绍了分析用户互动和可视化出处的新方向。
translated by 谷歌翻译
具有周期性模型的本地随机梯度下降(SGD)平均(FEDAVG)是联合学习中的基础算法。该算法在多个工人上独立运行SGD,并定期平均所有工人的模型。然而,当本地SGD与许多工人一起运行时,周期性平均导致跨越工人的重大模型差异,使全局损失缓慢收敛。虽然最近的高级优化方法解决了专注于非IID设置的问题,但由于底层定期模型平均而仍存在模型差异问题。我们提出了一个部分模型平均框架,这些框架减轻了联合学习中的模型差异问题。部分平均鼓励本地模型在参数空间上保持彼此接近,并且它可以更有效地最小化全局损失。鉴于固定数量的迭代和大量工人(128),验证精度高达2.2%的验证精度高于周期性的完整平均值。
translated by 谷歌翻译
在联合学习中,跨客户端聚合本地模型的共同方法是完整模型参数的周期性平均。然而,已经知道,不同的神经网络层可以在客户端上具有不同程度的模型差异。传统的全聚合方案不考虑这种差异并立即同步整个模型参数,导致网络带宽消耗效率低下。在增加沟通成本的同时,聚合在客户端中相似的参数不会进行有意义的培训进度。我们提出FedLama,一个用于可扩展联合学习的一层模型模型聚合方案。 FEDLAMA以层式方式自适应地调整聚合间隔,共同考虑模型差异和通信成本。层面聚合方法可以通过对模型精度的显着影响,整理地控制聚合间隔以放宽聚合频率,而不会对模型精度产生重大影响。我们的实证研究表明,Fedlama在IID数据中将通信成本降低至60%,而非IID数据的70%,同时为Fedivg实现了可比的准确性。
translated by 谷歌翻译
The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
translated by 谷歌翻译